智能论文笔记

Learning List-Level Domain-Invariant Representations for Ranking

Ruicheng Xian , Honglei Zhuang , Zhen Qin , Hamed Zamani , Jing Lu , Ji Ma , Kai Hui , Han Zhao , Xuanhui Wang , Michael Bendersky

分类：人工智能 | 自然语言处理 | 机器学习

2022-12-21

Domain adaptation aims to transfer the knowledge acquired by models trained on (data-rich) source domains to (low-resource) target domains, for which a popular method is invariant representation learning. While they have been studied extensively for classification and regression problems, how they apply to ranking problems, where the data and metrics have a list structure, is not well understood. Theoretically, we establish a domain adaptation generalization bound for ranking under listwise metrics such as MRR and NDCG. The bound suggests an adaptation method via learning list-level domain-invariant feature representations, whose benefits are empirically demonstrated by unsupervised domain adaptation experiments on real-world ranking tasks, including passage reranking. A key message is that for domain adaptation, the representations should be analyzed at the same level at which the metric is computed, as we show that learning invariant representations at the list level is most effective for adaptation on ranking problems.

translated by 谷歌翻译

VirtualCube: An Immersive 3D Video Communication System

Yizhong Zhang , Jiaolong Yang , Zhen Liu , Ruicheng Wang , Guojun Chen , Xin Tong , Baining Guo

分类：计算机视觉

2021-12-13

VirtualCube系统是一个尝试克服传统技术的一些限制的3D视频会议系统。关键的成分是VirtualCube，一种用RGBD摄像机录制的现实世界隔间的抽象表示，用于捕获用户的3D几何和纹理。我们设计VirtualCube，以便数据捕获的任务是标准化和显着简化的，并且所有内容都可以使用现成的硬件构建。我们将VirtualCubes用作虚拟会议环境的基本构建块，我们为每个VirtualCube用户提供一个周围的显示，显示远程参与者的寿命型视频。为了实现远程参与者的实时渲染，我们开发了V-Cube视图算法，它使用多视图立体声进行更精确的深度估计和Lumi-Net渲染，以便更好地渲染质量。 VirtualCube系统正确保留了参与者之间的相互眼睛凝视，使他们能够建立目光接触并意识到谁在视觉上关注它们。该系统还允许参与者与远程参与者具有侧面讨论，就像他们在同一个房间一样。最后，系统揭示了如何支持如何支持工作项的共享空间（例如，文档和应用程序），并跟踪参与者的视觉注意工作项目。

translated by 谷歌翻译

MIPI 2022 Challenge on RGBW Sensor Re-mosaic: Dataset and Report

Qingyu Yang , Guang Yang , Jun Jiang , Chongyi Li , Ruicheng Feng , Shangchen Zhou , Wenxiu Sun , Qingpeng Zhu , Chen Change Loy , Jinwei Gu

分类：计算机视觉

2022-09-15

随着移动平台上对计算摄影和成像的需求不断增长，在相机系统中开发和集成了高级图像传感器与新型算法的发展。但是，缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像（MIPI）的发展。为了弥合差距，我们介绍了第一个MIPI挑战，包括五个曲目，这些曲目着重于新型图像传感器和成像算法。在本文中，引入了RGBW关节Remosaic和Denoise，这是五个曲目之一，在全面分辨率上进行了RGBW CFA插值的插值。为参与者提供了一个新的数据集，其中包括70（培训）和15个（验证）高质量RGBW和拜耳对的场景。此外，对于每个场景，在0dB，24dB和42dB上提供了不同噪声水平的RGBW。所有数据均在室外和室内条件下使用RGBW传感器捕获。最终结果是使用PSNR，SSIM，LPIPS和KLD在内的客观指标评估的。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接，请访问https://github.com/mipi-challenge/mipi2022。

translated by 谷歌翻译

MIPI 2022 Challenge on RGBW Sensor Fusion: Dataset and Report

Qingyu Yang , Guang Yang , Jun Jiang , Chongyi Li , Ruicheng Feng , Shangchen Zhou , Wenxiu Sun , Qingpeng Zhu , Chen Change Loy , Jinwei Gu

分类：计算机视觉

2022-09-15

随着移动平台上对计算摄影和成像的需求不断增长，在相机系统中开发和集成了高级图像传感器与新型算法的发展。但是，缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像（MIPI）的发展。为了弥合差距，我们引入了第一个MIPI挑战，其中包括五个专注于新型图像传感器和成像算法的曲目。在本文中，引入了RGBW关节融合和Denoise，这是五个曲目之一，其中一条致力于将Binning模式RGBW融合到拜耳。为参与者提供了一个新的数据集，其中包括70（培训）和15个（验证）高质量RGBW和拜耳对的场景。此外，对于每个场景，在24dB和42dB处提供不同噪声水平的RGBW。所有数据均在室外和室内条件下使用RGBW传感器捕获。最终结果使用客观指标，包括PSNR，SSIM}，LPIPS和KLD评估。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接，请访问https://github.com/mipi-challenge/mipi2022。

translated by 谷歌翻译

MIPI 2022 Challenge on Quad-Bayer Re-mosaic: Dataset and Report

Qingyu Yang , Guang Yang , Jun Jiang , Chongyi Li , Ruicheng Feng , Shangchen Zhou , Wenxiu Sun , Qingpeng Zhu , Chen Change Loy , Jinwei Gu

分类：计算机视觉

2022-09-15

随着移动平台上对计算摄影和成像的需求不断增长，在相机系统中开发和集成了高级图像传感器与新型算法的发展。但是，缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像（MIPI）的发展。为了弥合差距，我们引入了第一个MIPI挑战，其中包括五个专注于新型图像传感器和成像算法的曲目。在本文中，引入了QUAD Remosaic和Denoise，这是五个曲目之一，在完全分辨率上进行了四QFA插值向拜耳进行插值。为参与者提供了一个新的数据集，包括70（培训）和15个（验证）高品质四边形和拜耳对的场景。此外，对于每个场景，在0dB，24dB和42dB上提供了不同噪声水平的四边形。所有数据均在室外和室内条件下使用四边形传感器捕获。最终结果使用客观指标，包括PSNR，SSIM，LPIPS和KLD。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接，请访问https://github.com/mipi-challenge/mipi2022。

translated by 谷歌翻译

MIPI 2022 Challenge on RGB+ToF Depth Completion: Dataset and Report

Wenxiu Sun , Qingpeng Zhu , Chongyi Li , Ruicheng Feng , Shangchen Zhou , Jun Jiang , Qingyu Yang , Chen Change Loy , Jinwei Gu

分类：计算机视觉

2022-09-15

随着对移动平台上对计算摄影和成像的需求不断增长，在相机系统中开发和集成了高级图像传感器与相机系统中新型算法。但是，缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像（MIPI）的发展。为了弥合差距，我们介绍了第一个MIPI挑战，包括五个曲目，这些曲目着重于新型图像传感器和成像算法。在本文中，引入了RGB+TOF深度完成，这是五个曲目之一，其中一条介绍了RGB传感器和TOF传感器（带有点照明）的融合。为参与者提供了一个名为TetrasRGBD的新数据集，其中包含18k对高质量合成RGB+DEPTH训练数据和2.3k对来自混合源的测试数据。所有数据均在室内场景中收集。我们要求所有方法的运行时间都应在桌面GPU上实时。最终结果是使用客观指标和平均意见评分（MOS）主观评估的。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接，请访问https://github.com/mipi-challenge/mipi2022。

translated by 谷歌翻译

MIPI 2022 Challenge on Under-Display Camera Image Restoration: Methods and Results

Ruicheng Feng , Chongyi Li , Shangchen Zhou , Wenxiu Sun , Qingpeng Zhu , Jun Jiang , Qingyu Yang , Chen Change Loy , Jinwei Gu

分类：计算机视觉

2022-09-15

随着移动平台上对计算摄影和成像的需求不断增长，在相机系统中开发和集成了高级图像传感器与新型算法的发展。但是，缺乏用于研究的高质量数据以及从行业和学术界进行深入交流的难得的机会限制了移动智能摄影和成像（MIPI）的发展。为了弥合差距，我们介绍了第一个MIPI挑战，包括五个曲目，这些曲目着重于新型图像传感器和成像算法。在本文中，我们总结并审查了MIPI 2022上的分配摄像头（UDC）图像恢复轨道。总共，成功注册了167名参与者，并在最终测试阶段提交了19个团队。在这项挑战中开发的解决方案在播放摄像头映像修复局上实现了最新的性能。本文提供了此挑战中所有模型的详细描述。有关此挑战的更多详细信息以及数据集的链接，请访问https://github.com/mipi-challenge/mipi2022。

translated by 谷歌翻译

CuDi: Curve Distillation for Efficient and Controllable Exposure Adjustment

Chongyi Li , Chunle Guo , Ruicheng Feng , Shangchen Zhou , Chen Change Loy

分类：计算机视觉

2022-07-28

我们提出曲线蒸馏，CUDI，以进行有效且可控的暴露调整，而无需在训练过程中配对或未配对的数据。我们的方法从有效的低光图像增强方法零DCE继承了零引用学习和基于曲线的框架，并以其推理速度进一步提高了其推理速度，减少其模型大小以及扩展到可控的暴露调整。通过新颖的曲线蒸馏实现了改进的推理速度和轻量级模型，该曲线蒸馏通过高阶曲线的切线线近似于常规曲线框架中耗时的迭代操作。通过新的自我监督的空间暴露控制损失，可控制的暴露调整成为可能，该损失限制了输出的不同空间区域的暴露水平，即接近接触映射的亮度分布，以作为输入条件。与大多数只能纠正不渗透或过度曝光的照片的方法不同，我们的方法可以使用单个模型纠正未充分曝光和过度曝光的照片。值得注意的是，我们的方法还可以在输入条件曝光图的指导下在全球或本地调整照片的曝光水平，该图可以在推理阶段进行预定或手动设置。通过广泛的实验，我们表明我们的方法在真实场景中的快速，稳健性和灵活的性能吸引了最先进的方法。项目页面：https：//li-chongyi.github.io/cudi_files/。

translated by 谷歌翻译

Riemannian Natural Gradient Methods

Jiang Hu , Ruicheng Ao , Anthony Man-Cho So , Minghan Yang , Zaiwen Wen

分类：机器学习

2022-07-15

本文研究了关于Riemannian流形的大规模优化问题，其目标函数是负面概要损失的有限总和。这些问题在各种机器学习和信号处理应用中出现。通过在歧管环境中引入Fisher信息矩阵的概念，我们提出了一种新型的Riemannian自然梯度方法，可以将其视为自然梯度方法的自然扩展，从欧几里得环境到歧管设置。我们在标准假设下建立了我们提出的方法的几乎纯净的全球融合。此外，我们表明，如果损失函数满足某些凸度和平稳性条件，并且输入输出图满足了雅各布稳定条件，那么我们提出的方法享有局部线性 - 或在Riemannian jacobian的Lipschitz连续性下，输入输出图，甚至二次 - 收敛速率。然后，我们证明，如果网络的宽度足够大，则可以通过具有批归归量的两层完全连接的神经网络来满足Riemannian Jacobian稳定性条件。这证明了我们的收敛率结果的实际相关性。对机器学习产生的应用的数值实验证明了该方法比最先进的方法的优势。

translated by 谷歌翻译

Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection

Junjie Yan , Yingfei Liu , Jianjian Sun , Fan Jia , Shuailin Li , Tiancai Wang , Xiangyu Zhang

分类：计算机视觉

2023-01-03

In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.

translated by 谷歌翻译